XVI. Объяснение с точки зрения последствий и естественного отбора
Подкрепление
Любое объяснение каузально. Мы объясняем событие, указывая на его причину. Причины предшествуют своим следствиям по времени. Отсюда вытекает, что мы не можем объяснить событие (например, действие) через его последствия. Однако если экспланандум является моделью повторяющегося поведения, его следствия могут в какой-то момент войти в число причин, увеличивающих вероятность наступления этого события в следующий раз. Это может произойти двумя способами: путем подкрепления и путем отбора. Я сосредоточусь на втором способе, более важном для целей этой работы, но начну с того, что скажу несколько слов о первом.
Если то или иное поведение приносит приятные или выгодные следствия, мы чаще ведем себя таким образом. Если его следствия неприятны или влекут наказание, такое поведение встречается реже. Лежащий за этим механизм может быть просто рациональным выбором, если мы замечаем приятные или неприятные последствия и решаем действовать в будущем так, чтобы повторить или избежать повторения данного опыта[224]. Однако часто подкрепление не является следствием осознанного выбора. Когда младенцы начинают плакать, зная, что таким способом заставляют родителей взять себя на руки, нет оснований считать, что они сознательно отмечают выгоды от плача и позднее делают это по собственной воле, чтобы их получить. Когда дети постарше устраивают истерики, чтобы добиться своего, родители обычно могут понять, что это симуляция.
Подкрепляющее обучение хорошо изучено в лабораторных экспериментах над животными. Обычно животным предлагают нажать на рычаг или на один из нескольких рычагов, после чего им дают вознаграждение в зависимости либо от числа нажатий на рычаг с момента последней награды, либо от времени, которое прошло с момента получения последней награды. В обоих случаях функция может быть детерминистской или вероятностной. При режиме с постоянным соотношением количества реакций и подкреплений животное получает награду после того, как нажало на рычаг установленное количество раз, тогда как при режиме с вариативным числом подкреплений количество нажатий, необходимых для получения награды, произвольно варьирует. В обоих случаях каждое нажатие приносит поощрительное очко, которое добавляется к предыдущим. При режиме с постоянным интервалом между подкреплениями нажатие даст награду через определенное время после получения последней награды, тогда как при режиме с вариативным интервалом временно́й промежуток, по прошествии которого выдается награда, произвольно меняется. В обоих случаях время выдачи наград не зависит от количества нажатий. Каждый режим подкрепления через некоторое время производит специфический стабильный паттерн поведения, который к тому же исчезает, как только положительный стимул (награду) убирают. Так, реакции, усвоенные, когда награда следует за каждым нажатием на рычаг (особый случай режима с постоянным соотношением, известный как постоянное подкрепление), исчезают быстрее, чем те, которые были усвоены при режиме с вариативным соотношением. Интуиция подсказывает противоположную идею, поскольку кажется, что постоянное подкрепление порождает более сильную привычку, но, как это иногда бывает, интуиция заблуждается.